智能论文笔记

Generalizable Natural Language Processing Framework for Migraine Reporting from Social Media

Yuting Guo , Swati Rajwal , Sahithi Lakamana , Chia-Chun Chiang , Paul C. Menell , Adnan H. Shahid , Yi-Chieh Chen , Nikita Chhabra , Wan-Ju Chao , Chieh-Ju Chao

分类：自然语言处理

2022-12-23

Migraine is a high-prevalence and disabling neurological disorder. However, information migraine management in real-world settings could be limited to traditional health information sources. In this paper, we (i) verify that there is substantial migraine-related chatter available on social media (Twitter and Reddit), self-reported by migraine sufferers; (ii) develop a platform-independent text classification system for automatically detecting self-reported migraine-related posts, and (iii) conduct analyses of the self-reported posts to assess the utility of social media for studying this problem. We manually annotated 5750 Twitter posts and 302 Reddit posts. Our system achieved an F1 score of 0.90 on Twitter and 0.93 on Reddit. Analysis of information posted by our 'migraine cohort' revealed the presence of a plethora of relevant information about migraine therapies and patient sentiments associated with them. Our study forms the foundation for conducting an in-depth analysis of migraine-related information using social media data.

translated by 谷歌翻译

AutoSlicer: Scalable Automated Data Slicing for ML Model Analysis

Zifan Liu , Evan Rosen , Paul Suganthan G. C

分类：机器学习

2022-12-18

Automated slicing aims to identify subsets of evaluation data where a trained model performs anomalously. This is an important problem for machine learning pipelines in production since it plays a key role in model debugging and comparison, as well as the diagnosis of fairness issues. Scalability has become a critical requirement for any automated slicing system due to the large search space of possible slices and the growing scale of data. We present Autoslicer, a scalable system that searches for problematic slices through distributed metric computation and hypothesis testing. We develop an efficient strategy that reduces the search space through pruning and prioritization. In the experiments, we show that our search strategy finds most of the anomalous slices by inspecting a small portion of the search space.

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

Optimising Chest X-Rays for Image Analysis by Identifying and Removing Confounding Factors

Shahab Aslani , Watjana Lilaonitkul , Vaishnavi Gnanananthan , Divya Raj , Bojidar Rangelov , Alexandra L Young , Yipeng Hu , Paul Taylor , Daniel C Alexander , Joseph Jacob

分类：计算机视觉 | 机器学习

2022-08-22

在COVID-19大流行期间，在COVID-19诊断的紧急环境中进行的大量成像量导致临床CXR获取的差异很大。在所使用的CXR投影，添加图像注释以及临床图像的旋转程度和旋转程度中可以看到这种变化。图像分析社区试图通过开发自动化的CoVID-19诊断算法来减轻大流行期间过度拉伸放射学部门的负担，该诊断算法是CXR成像的输入。已利用大量公开的CXR数据集来改善CoVID-19诊断的深度学习算法。然而，公开可用数据集中临床可获得的CXR的可变质量可能会对算法性能产生深远的影响。 COVID-19可以通过图像标签等图像上的非动物特征的算法来推断诊断。这些成像快捷方式可能是数据集特定的，并限制了AI系统的概括性。因此，了解和纠正CXR图像中的关键潜在偏差是CXR图像分析之前的重要第一步。在这项研究中，我们提出了一种简单有效的逐步方法，以预处理Covid-19胸部X射线数据集以消除不希望的偏见。我们进行消融研究以显示每个单个步骤的影响。结果表明，使用我们提出的管道可以将基线共证检测算法的精度提高到13％。

translated by 谷歌翻译

Bayesian nonparametric mixture inconsistency for the number of components: How worried should we be in practice?

Yannis Chaumeny , Johan van der Molen Moris , Anthony C. Davison , Paul D. W. Kirk

分类： (统计)机器学习

2022-07-29

我们考虑有限混合物（MFM）和Dirichlet工艺混合物（DPM）模型的贝叶斯混合物。最近的渐近理论已经确定，DPM高估了大型样本的聚类数量，并且两类模型的估计量对于不指定的群集的数量不一致，但是对有限样本分析的含义尚不清楚。拟合这些模型后的最终报告的估计通常是使用MCMC摘要技术获得的单个代表性聚类，但是尚不清楚这样的摘要估计簇的数量。在这里，我们通过模拟和对基因表达数据的应用进行了研究，发现（i）DPM甚至在有限样本中高估了簇数的数量，但仅在有限的程度上可以使用适当的摘要来纠正，并且（ii）（ii））错误指定会导致对DPM和MFM中集群数量的高估，但是结果通常仍然可以解释。我们提供了有关MCMC摘要的建议，并建议尽管MFM的渐近性能更具吸引力，这提供了强大的动力来偏爱它们，但使用MFMS和DPMS获得的结果通常在实践中非常相似。

translated by 谷歌翻译

Theoretical Perspectives on Deep Learning Methods in Inverse Problems

Jonathan Scarlett , Reinhard Heckel , Miguel R. D. Rodrigues , Paul Hand , Yonina C. Eldar

分类： (统计)机器学习 | 机器学习

2022-06-29

近年来，在诸如denoing，压缩感应，介入和超分辨率等反问题中使用深度学习方法的使用取得了重大进展。尽管这种作品主要是由实践算法和实验驱动的，但它也引起了各种有趣的理论问题。在本文中，我们调查了这一作品中一些突出的理论发展，尤其是生成先验，未经训练的神经网络先验和展开算法。除了总结这些主题中的现有结果外，我们还强调了一些持续的挑战和开放问题。

translated by 谷歌翻译

Transferable Graph Backdoor Attack

Shuiqiao Yang , Bao Gia Doan , Paul Montague , Olivier De Vel , Tamas Abraham , Seyit Camtepe , Damith C. Ranasinghe , Salil S. Kanhere

分类：人工智能 | 机器学习

2022-06-21

图形神经网络（GNNS）在许多图形挖掘任务中取得了巨大的成功，这些任务从消息传递策略中受益，该策略融合了局部结构和节点特征，从而为更好的图表表示学习。尽管GNN成功，并且与其他类型的深神经网络相似，但发现GNN容易受到图形结构和节点特征的不明显扰动。已经提出了许多对抗性攻击，以披露在不同的扰动策略下创建对抗性例子的GNN的脆弱性。但是，GNNS对成功后门攻击的脆弱性直到最近才显示。在本文中，我们披露了陷阱攻击，这是可转移的图形后门攻击。核心攻击原则是用基于扰动的触发器毒化训练数据集，这可以导致有效且可转移的后门攻击。图形的扰动触发是通过通过替代模型的基于梯度的得分矩阵在图形结构上执行扰动动作来生成的。与先前的作品相比，陷阱攻击在几种方面有所不同：i）利用替代图卷积网络（GCN）模型来生成基于黑盒的后门攻击的扰动触发器； ii）它产生了没有固定模式的样品特异性扰动触发器； iii）在使用锻造中毒训练数据集训练时，在GNN的背景下，攻击转移到了不同的GNN模型中。通过对四个现实世界数据集进行广泛的评估，我们证明了陷阱攻击使用四个现实世界数据集在四个不同流行的GNN中构建可转移的后门的有效性

translated by 谷歌翻译

Efficient Per-Shot Convex Hull Prediction By Recurrent Learning

Somdyuti Paul , Andrey Norkin , Alan C. Bovik

分类：计算机视觉 | 机器学习

2022-06-10

自适应视频流依靠构建高效的比特梯梯子来在带宽约束下为观众提供最佳的视觉质量。与内容相关的比特阶梯选择的传统方法需要预先编码多个编码参数的视频镜头，以找到由结果质量曲线的凸壳给出的最佳操作点。但是，此预编码步骤等同于在可能的编码参数的空间上进行详尽的搜索过程，这在计算和时间支出方面都会引起大量开销。为了减少此开销，我们提出了一种基于深度学习的内容凸面预测的深度学习方法。我们采用经常性的卷积网络（RCN）来隐式分析视频拍摄的时空复杂性，以预测其凸壳。采用了两步转移学习方案来培训我们提出的RCN救主模型，该模型确保了足够的内容多样性来分析场景复杂性，同时也可以捕获原始源视频的场景统计信息。我们的实验结果表明，我们提出的模型可以更好地近似最佳凸壳，并与现有方法相比提供竞争性的时间。平均而言，我们的方法平均将预编码时间缩短了58.0％，而预测的凸壳相对于地面真理的平均Bjontegaard三角洲比特率（BD率）为0.08％，而BD率的平均绝对偏差为分布为0.44％

translated by 谷歌翻译

Finite-Sample Maximum Likelihood Estimation of Location

Shivam Gupta , Jasper C. H. Lee , Eric Price , Paul Valiant

分类：机器学习 | (统计)机器学习

2022-06-06

我们考虑一维位置估计，其中我们从$ n $ samples $ \ lambda + \ eta_i $估算一个参数$ \ lambda $，每个$ \ eta_i $ drawn i.i.d.从已知的分销$ f $。对于固定的$ f $，最大易变估计（MLE）众所周知，在$ n \ to \ infty $中是最佳的，它是渐近正常的，差异与cram \'er-rao的差异相匹配。\ frac {1} {n \ Mathcal {i}} $，其中$ \ Mathcal {i} $是$ f $的Fisher信息。但是，这种界限不适合有限$ n $，或者当$ f $随$ n $而变化时。我们以任意$ f $和$ n $的方式显示，人们可以根据$ f $的平滑版本的渔民信息来恢复类似的理论，其中平滑半径损失了$ n $。

translated by 谷歌翻译

Transient motion classification through turbid volumes via parallelized single-photon detection and deep contrastive embedding

Shiqi Xu , Wenhui Liu , Xi Yang , Joakim Jönsson , Ruobing Qian , Paul McKee , Kanghyun Kim , Pavan Chandra Konda , Kevin C. Zhou , Lucas Kreiß

分类：计算机视觉

2022-04-04

在各种科学和临床环境中，快速无创探测空间变化的非相关事件（例如人类头骨下方的脑血流）是一项必不可少的任务。所使用的主要光学技术之一是弥漫性相关光谱（DC），其经典实现使用单个或几个单光子检测器，导致空间定位精度较差，时间分辨率相对较低。 Here, we propose a technique termed Classifying Rapid decorrelation Events via Parallelized single photon dEtection (CREPE)}, a new form of DCS that can probe and classify different decorrelating movements hidden underneath turbid volume with high sensitivity using parallelized speckle detection from a $32\times32 $像素SPAD阵列。我们通过对隐藏在5mm组织样的幻影下的不同时空 - 偏置模式进行分类来评估我们的设置，该模式由快速反相关的动态散射介质制成。十二个多模式纤维用于从组织幻影表面的不同位置收集散射光。为了验证我们的设置，我们通过在Multi-Kilo-Hertz速率下调制的数字微龙器设备（DMD）以及含有流动流体的容器幻影。除了具有胜过经典无监督学习方法的深层对比学习算法外，我们证明我们的方法可以准确地检测和分类浊度散射介质下的不同瞬态去相关事件（发生在0.1-0.4s中），而无需任何数据标记。这有可能应用于非侵入性的深层组织运动模式，例如在紧凑和静态检测探针内以多赫兹速率识别正常或异常的脑血流事件。

translated by 谷歌翻译